
dyn.load("supp_script.so")
extract_text<-function(x){
# x un text dont on souhaite extraire le texte

	#concaténation de toutes les lignes en une seule
	x<-PlainTextDocument(paste(x,collapse=""))

	#suppression des scripts
	#version 2 : script C avec parcours linéaire de la chaîne
	x<-.C("supp_script",as.character(x))

	#suppression des balise HTML
	x<-gsub("<[^<]*>"," ",x,perl=TRUE,ignore.case=TRUE)

	#suppression d'autres caractères spéciaux
	x<-gsub("\\t|\\f|&amp;|<!--|&copy;|&egrave;|&quot;|&nbsp;","",x,perl=TRUE,ignore.case=TRUE)

	return(PlainTextDocument(x))
}
